注释数据是应用监督机器学习方法的要求,注释的质量对于结果至关重要。尤其是在处理不确定性多种多样的文化遗产藏品时,注释数据仍然是一项手动,艰巨的任务,由域专家执行。我们的项目始于两套已经注释的中世纪手稿图像,但是基于学术和语言差异,这些图像并不完整,并包含冲突的元数据。我们的目的是为组合数据集创建(1)一组统一的描述性标签,以及(2)对高质量的分层分类,可以用作监督机器学习的有价值的输入。为了实现这些目标,我们开发了一个视觉分析系统,以使中世纪主义者能够合并,正规化和扩展用于描述这些数据集的词汇。单词和图像嵌入的视觉接口以及数据集的注释的共发生,同时允许注释多个图像,建议注释标签候选者并支持组成标签的层次分类。我们的系统本身实现了一种半监督的方法,因为它根据中世纪主义者的反馈更新视觉表示,并且一系列用法场景记录了其对目标社区的价值。
translated by 谷歌翻译